查看原文
其他

怎么样使用 Redis 来存储和查询 ip 数据

(点击上方蓝字,可快速关注我们)


来源:joyqi

链接:https://70.io/develop/use-redis-to-store-ip-data.html

2013年12月5日发布


今天我的朋友佛手给我打了个电话,他们网站的业务要根据客户的 ip 地址快速定位客户的地理位置。网上已经有一大堆类似的 ip 地址库可以用,但问题是这些地址库的数据表结构大多如下所示


+--------------+------------------+------+-----+---------+----------------+

| Field        | Type             | Null | Key | Default | Extra          |

+--------------+------------------+------+-----+---------+----------------+

| ip_id        | int(11) unsigned | NO   | PRI | NULL    | auto_increment |

| ip_country   | varchar(50)      | NO   |     | NULL    |                |

| ip_startip   | bigint(11)       | NO   | MUL | NULL    |                |

| ip_endip     | bigint(11)       | NO   | MUL | NULL    |                |

| country_code | varchar(2)       | NO   |     | NULL    |                |

| zone_id      | int(11)          | NO   |     | 0       |                |

+--------------+------------------+------+-----+---------+----------------+


最核心的部分是三个:ip_startip、ip_endip 以及 ip_id。其中 ip_id 是我们要查询的结果,当然你也可以把 zone_id 和 ip_country 包括进去。我这里就用 ip_id 来特指查询结果了。


面对这个表,没什么其它办法,你的查询语句只能是


SELECT * FROM who_ip WHERE ip_startip <= {ip} AND ip_endip >= {ip}


其中 {ip} 是你要查询的 ip 地址,为了方便查询,在 php 中我们一般要用 ip2long 函数把它转换为一个整数。现在问题来了,这个表有 400 万条数据,无论你怎么优化它的索引结构(实际上我觉得这没啥用),在以上查询语句中都要耗费 2 秒以上的时间,对于一个高频使用的接口,这显然是不可忍受的。


REDIS 可以解决这个问题吗?


实际上这也是佛手同学最关心的问题,因为我们知道Redis有强大数据结构和超快的速度,那么我们能设计出适应这种查询场景的结构吗?


范围查询,我首先想到的就是Redis里面的Sorted Sets结构,这也是redis中唯一可以指定范围(SCORE值)查询的结构了,所以基本上我们的希望都寄托在它身上了。


最简单粗暴的方法就是把ip_startip和ip_endip都转化为Sorted Sets里的Score,然后把ip_id定义为Member。这样我们的查询就很简单了,只需要用ZRANGESCORE查询出离ip最近SCORE对应的两个ip_id即可。然后再分析,如果这两个ip_id是相同的,那么说明这个ip在这个地址段,如果不同的话证明这个ip地址没有被任何地址段所定义,是一个未知的ip。


基本逻辑是没有问题的,但是最大的问题还是性能上的挑战。根据我的经验,一个SET里面放10万条数据以上就已经很慢了,如果放到400万这种量级,我非常怀疑它跟mysql相比还有优势吗?


我设计的存储结构


我的解决方案是把这个地址库切分,每一片区最多保存65536个地址。也就是说如果一个ip地址段为188.88.77.22 - 188.90.78.10,那么我们就把它切分为


188.88.77.22 - 188.88.77.255

188.89.0.0 - 188.89.255.255

188.90.0.0 - 189.90.78.10


也就是我们保证每一个ip地址段都被保存在xxx.xxx.0.0 - xxx.xxx.255.255的一个区段中,这个区段的理论极限是保存65536个值,实际上要远小于这个数字。而这样的区段理论上也有65536个,这都是ip地址的设计所限,当然实际上也远小于这个值。


因此这样的设计基本上就能满足我们的性能需要了。以下是我用php写的数据切分程序


<?php


// redis 参数

define('REDIS_HOST', '127.0.0.1');

define('REDIS_PORT', 6379);

define('REDIS_DB', 10);


define('MYSQL_HOST', 'localhost');

define('MYSQL_PORT', 3306);

define('MYSQL_USER', 'root');

define('MYSQL_PASS', '123456');

define('MYSQL_DB', 'who_brand');


define('MYSQL_TABLE', 'who_ip');

define('MYSQL_COLUMN_START', 'ip_startip');

define('MYSQL_COLUMN_END', 'ip_endip');

define('MYSQL_COLUMN_ID', 'ip_id');

define('MYSQL_PAGESIZE', 1000);


mysql_connect(MYSQL_HOST . ':' . MYSQL_PORT, MYSQL_USER, MYSQL_PASS);

mysql_select_db(MYSQL_DB);


function add_ip($page, $offset, $value) {

    static $redis;


    if (!$redis) {

        $redis = new Redis();

        $redis->connect(REDIS_HOST, REDIS_PORT);

        $redis->select(REDIS_DB);

    }


    $key = 'ip:' . $page;

    $redis->zAdd($key, $offset, $value);

}


$page = 0;

do {

    $offset = $page * MYSQL_PAGESIZE;

    $count = 0;


    $res = mysql_query('SELECT * FROM ' . MYSQL_TABLE . ' LIMIT ' . MYSQL_PAGESIZE . " OFFSET {$offset}");


    while ($ip = mysql_fetch_assoc($res)) {

        $start = $ip[MYSQL_COLUMN_START];

        $end = $ip[MYSQL_COLUMN_END];

        $value = $ip[MYSQL_COLUMN_ID];


        $startOffset = $start % 65536;

        $endOffset = $end % 65536;


        $start -= $startOffset;

        $end -= $endOffset;


        $startPage = $start / 65536;

        $endPage = $end / 65536;


        for ($i = $startPage; $i <= $endPage; $i ++) {

            if ($i == $startPage) {

                add_ip($i, $startOffset, 's:' . $value);


                if ($i != $endPage) {

                    add_ip($i, 65535, 'e:' . $value);

                }

            }


            if ($i == $endPage) {

                add_ip($i, $endOffset, 'e:' . $value);


                if ($i != $startPage) {

                    add_ip($i, 0, 's:' . $value);

                }

            }


            if ($i != $endPage && $i != $startPage) {

                add_ip($i, 0, 's:' . $value);

                add_ip($i, 65535, 'e:' . $value);

            }

        }


        echo ($page * MYSQL_PAGESIZE + $count) . "\n";

        $count ++;

    }


    $page ++;

} while ($count = MYSQL_PAGESIZE);


查询程序也非常简单


<?php


define('REDIS_HOST', '127.0.0.1');

define('REDIS_PORT', 6379);

define('REDIS_DB', 10);


$redis = new Redis();

$redis->connect(REDIS_HOST, REDIS_PORT);

$redis->select(REDIS_DB);


$ip = ip2long('173.255.218.70');

$offset = $ip % 65536;

$page = ($ip - $offset) / 65536;



// 取出小于等于它的最接近值

$start = $redis->zRevRangeByScore('ip:' . $page, 0, $offset, array(

    'limit' => array(0, 1)

));


// 取出大于等于它的最接近值

$end = $redis->zRangeByScore('ip:' . $page, $offset, 65535, array(

    'limit' => array(0, 1)

));


if (empty($start) || empty($end)) {

    echo 'unknown';

    exit;

}


$start = $start[0];

$end = $end[0];


list ($startOp, $startId) = explode(':', $start);

list ($endOp, $endId) = explode(':', $end);


if ($startId != $endId) {

    echo 'unknown';

    exit;

}


echo $startId;



【今日微信公号推荐↓】

更多推荐请看值得关注的技术和设计公众号


其中推荐了包括技术设计极客 和 IT相亲相关的热门公众号。技术涵盖:Python、Web前端、Java、安卓、iOS、PHP、C/C++、.NET、Linux、数据库、运维、大数据、算法、IT职场等。点击《值得关注的技术和设计公众号》,发现精彩!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存